智能论文笔记

解决时间扩展的任务是大多数增强学习（RL）算法的挑战[ARXIV：1906.07343]。我们研究了RL代理商学会提出自然语言问题的能力，以了解其环境并在新颖，时间扩展的环境中实现更大的概括性能。我们通过赋予该代理商的能力向全知的甲骨文提出“是，不”问题来做到这一点。这使代理商可以获得有关手头任务的指导，同时限制了对新信息的访问。为了在时间扩展的任务的背景下研究这种自然语言问题的出现，我们首先在迷你网格环境中训练代理商。然后，我们将受过训练的代理转移到另一个更艰难的环境中。与无法提出问题的基线代理相比，我们观察到概括性能的显着提高。通过将其对自然语言在其环境中的理解，代理可以推理其环境的动态，以至于在新型环境中部署时可以提出新的，相关的问题。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

照料者与儿童之间的互动在人类语言获取和发展中起着至关重要的作用。鉴于这一观察结果，显式的互动在人工语言建模中几乎没有作用，这也针对人类语言的获取，但通过人工模型。此外，一种交互式的语言建模方法具有使语言模型更具用途并严重影响下游应用程序的潜力。在这些考虑因素上，我们开创了交互式语言建模的空间。作为第一个贡献，我们提出了一个路线图，在该路线图中，我们详细介绍了需要采取互动语言建模的步骤。然后，我们以身作则，并在此路线图上采取第一步，显示了我们方法的最初可行性。因此，这项工作旨在成为关于互动语言建模的更大研究议程的开始。

translated by 谷歌翻译